Blog Math Roadmap Murmurs Photos Projects Links About

Back

Tags: #policy gradient

May 15, 2026

从普通 RL 到 GRPO

把普通 RL、最大熵 RL、Policy Gradient、PPO 和 GRPO 放在同一条主线上，理解回报、熵、概率比、clip、critic 与组内相对优势。

17 min zh-CN
- 强化学习
- rl
- ppo
- grpo
- 最大熵
- policy gradient
- rlhf
- llm
May 14, 2026

从 REINFORCE 到 PPO

从 MDP 单步概率出发，推导策略梯度、reward-to-go、baseline、advantage、Actor-Critic、GAE，以及 PPO 的 ratio 与 clip。

13 min zh-CN
- 强化学习
- policy gradient
- reinforce
- actor-critic
- gae
- ppo
- rlhf
- llm